科研星球

助力医生发文章的3 款强大的公共数据库

这些数据库包含海量的普通转录组、单细胞转录组、甲基化、ATAC 等数据,这些数据都能对自己的研究有帮助。



一、GEO 数据库

网址:https://www.ncbi.nlm.nih.gov/geo/

GEO 这个数据库应该大多数人都很熟悉,毕竟之前发文章时,一些组学数据都需要上传至 GEO。

GEO 数据库是一个免费的公共功能基因组学数据存储库,使用简单,对科研者非常友好。接受基于阵列和序列的数据,提供的工具可帮助用户查询和下载实验和整理的基因表达谱。

0.png

图片来源:网站截图


接下来直接介绍数据检索吧。

获取数据集的来源有两种办法。

一种是直接检索 GSE number 获取数据集。有些已发表文献中会提供 GSE number,如果你对后续数据感兴趣,则直接检索 GSE number 即可。

另一种是用关键词检索。在很多时候,我们是有目的地去检索,想要知道某些组学是否已经有数据,需要自己用关键词检索。为了更精确的获得需要的数据,检索的信息尽可能精确,例如,输入「组织」或「细胞」、「物种信息」、「测序类型」等。从检索结果中再筛选需要的数据。

下面,以 GSE148505 为例,一起来看看检索结果主要包含了哪些信息。

0 (2).png

图片来源:网站截图


首先,看到标题就知道这个数据集是干什么的,主要关注物种类型,测序是芯片数据还是高通量(因为后续的分析方法不同)还需关注实验设计,详细的测序样品获取实验方法。例如,动物的选择,细胞的处理等信息都要搞清楚,才能判断数据集是否符合我们的需求。

citation则是数据发表文章。如果数据所在文章已经发表,这里会显示文章题目,则可以通过阅读这篇文章更加细致的了解作者上传的数据,以此查看是否还有可以挖掘的内容。

0 (1).png

图片来源:网站截图


下面部分需要看测序平台,这里涉及到基因注释信息。我们需要的数据在 series matrix file中,下载这个文件就可以获取表达矩阵。原始的测序文件在 Raw data中。

0 (7).png

图片来源:网站截图


虽然网上有很多帖子介绍 GEO,但是有一点内容很少提及,那就是「metadata」信息。

点击页面「SRA run selector」,则会跳转测序样本的详细信息,点击 「Metadata」即可下载。很多时候这里面不仅不含处理与对照信息,还有性别、年龄等信息,如果将这些信息也纳入自己的研究,那么研究内容会变得更有意义,也更丰富。

总体而言:

优点:GEO 是同类数据库中比较友好的了,基本上提供表达矩阵数据,方便使用者快速查询和分析。

缺点:其提供的芯片分析工具 GEO2R 有时候会误导读者,结果不一定准确,谨慎使用。而且基本上提供的都是 gene ID,需要自己注释 gene symbol 信息。


二、EMBL_EBI 数据库

网址:https://www.ebi.ac.uk/

EMBL_EBI 欧洲生物信息研究所数据库,知名度似乎没有 GEO 高的,毕竟很多数据挖掘都是针对 GEO,而针对 EMBL_EBI 的比较少。

然而,EMBL_EBI 也拥有非常全面的免费分子数据资源。致力于开发数据库和工具有效地共享数据、执行复杂的查询并以不同的方式分析结果。

很多时候,有些研究者在 GEO 检索不到数据后就放弃了,但其实 EMBL_EBI 上可能恰好有这个数据。因此,这两个数据库之间应该互补使用。

0 (8).png

图片来源:网站截图


EMBL_EBI 数据检索方法和 GEO 一样,可以使用检索 number,也可以用关键词法广撒网。

对于组学数据的检索,点击主页「Services」,选择「A to Z」,然后点击「ArrayExpress」,就可以进行检索了,这其中同样包含了转录组,基因组等数据。

0 (9).png

图片来源:网站截图


下面,以 E-MTAB-7438 为例,看看数据集包含哪些信息。

0 (3).png

图片来源:网站截图


进入主页后测序信息简洁明了,标题信息说明了是什么测序数据,组织和测序类型是什么。之后是物种信息及实验设计,这些都能帮助我们了解这个数据。

页面底部就是数据链接了。打开数据链接就是整个数据的样本信息,有分组,物种、性别等,总之是比较详细的。

0 (6).png

图片来源:网站截图


点击右上角「Export」就可以导出样本信息。测序数据的下载在页面右侧,可以选择下载原始 FASTQ 数据也可以选择 Processed data。

这里必须强调一点,EMBL_EBI 大多上传的都是原始测序数据,也有一些是表达矩阵。

总体而言:

优点:EMBL_EBI 数据库页面简单,清晰明了。除了组学的一些数据,EMBL_EBI 还包含一些「湿实验」的数据和其他有意思的内容,感兴趣的可以去主页详细了解,说不定有用!

缺点:大多数据上传的是原始测序数据,对于没有生信上游分析经验的小伙伴不太友好!


三、NGDC 国家基因组科学数据中心

网址:https://ngdc.cncb.ac.cn/

近年来由于大量生物学数据的产生,我国也在致力于建立数据库用于存储测序大数据。国家基因组数据中心(NGDC)是中国国家生物信息中心 (CNCB)的一部分,通过提供对一系列资源的开放访问来推进生命与健康科学的发展。

由于是我们国家的数据库,所以页面就更加友好了,右侧选择「语言」-「中文简体」,对数据的使用也会更加顺畅。

0 (5).png

图片来源:网站截图


NGDC 的基本内容设置与之前两个数据库类似。而且还提供链接转入之前的两个数据库,使用很方便。

0 (4).png

图片来源:网站截图


检索方法如前,数据主页包含数据标题和物种,对基本的实验设计也有描述,还提供了资助来源和作者。

这里需要强调,NGDC 的数据不能直接下载共享使用,需要联系作者获取数据使用权。

0 (10).png

图片来源:网站截图


点开数据链接,就能获取数据样本的详细信息了。

0 (11).png

图片来源:网站截图


除此之外,NGDC 还提供了大量有用的数据信息和工具,在其主页下方的资源部分,可以看到囊括了多个数据,有不同的选项供使用。

0 (12).png

图片来源:网站截图


例如,想看某个基因在癌症和正常组织中的表达信息。则可以在基因表达那里检索,快速获取有用的信息。

0 (13).png

图片来源:网站截图


总体而言:

优点:NGDC 提供的数据是基于国内的样品,对于有特殊需求,例如研究某个人群特定的研究具有优势,而且提供了详细的数据和多个工具。

缺点:NGDC 的数据不能直接下载使用,需要联系作者,经过作者同意,达成一致才能公开挖掘使用!这一点不如 GEO、EMB 方便!

数据库只是一种手段和工具,利用的好也是能够获取有用信息的。尤其是没有基础做测序,或者没有太多实验支持的情况下,公共数据库的挖掘就是一个值得的选择。

此外,通过对数据集的分析,也能够找到研究的思路和方向。

赶快学习学习这几个数据库,数据库没有好坏之分,重要的是要整合使用,也试着检索下自己感兴趣的内容,为自己的基金写作和课题奠定基础!



没有账号?